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融合 项 目 偏差 与 用 户 偏好 的 推荐 算法 、 


程 条， 高 茂 庭 
(上 海 海 事 大 学 信息 工程 学 院 ， 上 海 201306) 


摘 要 : 针对 协同 过 滤 推荐 中 由 于 项 目 和 用 户 间 关联 因素 的 相互 影响 而 存在 项 目 偏 差 和 用 户 偏好 的 问题 ， 提 出 一 种 融 
合 项 目 偏差 与 用 户 偏好 的 推荐 算法 。 先 进行 聚 类 处 理 ， 包 括 LDA 主题 建 模 生成 项 目 北 和 K-means 聚 类 生成 用 户 禾 ; 
再 依次 根据 项 目 众 和 用 户 徐 的 约束 生成 项 目 偏差 分 ， 同 时 以 用 户 项 目 评分 及 项 目 类 型 为 基础 ， 经 过 概率 转移 得 到 用 户 
偏好 分 ; 最 后 以 项 目 儿 内 已 有 评分 的 均值 为 基础 ， 对 项 目 偏差 分 和 用 户 偏好 分 进行 线性 加 权 生 成 预测 评分 。 对 比 实验 
表明 ， 新 算法 能 够 根据 不 同 的 近邻 得 到 合理 的 推荐 ， 提 高 推荐 的 准确 度 。 
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Recommendation algorithm combining item deviation and user preference 


Cheng Lei, Gao Maoting 
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China) 


Abstract: Aiming at the problem that there exists item deviation and user preferences in collaborative filtering 
recommendation for the interaction between factors related in items and users, this paper proposed a recommendation 
algorithm integrated item deviation and user preference. Firstly it clustered to generate item clusters on LDA topics modeling 
and to get user clusters by using K-means; then it generated item deviation score on the constraints of item cluster and user 
cluster, and obtained user preference score with probability transfer on user-item score and item type. Finally it weighted the 
item deviation score and user preference score linearly to form the prediction score based on the existing scoring average in 
the item cluster. Comparison experiments show that the new algorithm could obtain reasonable recommendation based on 


different neighbors and improve recommendation accuracy. 
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偏好 。Zhao 等 人 外 提出 一 种 基于 特征 转移 和 概率 矩阵 分 解 的 扒 
荐 算法 ， 将 信任 矩阵 集成 到 评分 矩阵 中 ， 用 户 的 评分 只 受到 
推荐 系统 作为 一 种 是 帮助 用 户 快速 选择 有 效 信息 的 重要 工 身 属 性 以 及 信任 的 人 影响 ， 从 而 过 滤 掉 无 关 用 户 。Zhou 等 人 
具 , 正 在 被 越 来 越 多 的 电子 商务 和 社交 网 站 用 来 改善 用 户 体验 。 ”提出 一 种 评估 协同 过 滤 的 LDA 模型 ， 通 过 给 主题 模型 添加 用 
推 户 评 分 信息 来 进行 协同 过 滤 ， 并 利用 用 户 对 于 项 目的 偏好 给 


六 
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推荐 算法 主要 包括 基于 协同 过 滤 的 算法 、 基 于 内 容 的 算法 和 基 
于 标签 的 算法 凸 。 作 为 常用 的 推荐 算法 ， 协 同 过 滤 主要 依据 用 合理 的 推荐 。 原 福永 四 等 人 提出 一 种 基于 项 目的 协同 过 滤 算 法 ， 
户 一 项 目 评分 信息 进行 评分 预测 ， 存 在 一 些 不 足 使 算法 准确 度 将 项 目 分 类 和 近邻 引入 到 Slope One 算法 ， 从 而 过 滤 掉 不 相 
难以 提高 ， 一 方面 ， 由 于 受 项 目 间 关 联 因素 的 相互 影响 ， 实 际 关 的 项 目 。 刘 慧 婷 等 人 凹 提 出 一 种 基于 用 户 偏好 的 矩阵 分 解 算 
存在 项 目 偏差 问题 ， 另 一 方面 ， 却 缺少 考虑 不 同 用户 对 各 项 法 ， 通 过 用 户 项 目 评 分 矩阵 和 和 气 阵 分 解 得 到 的 项 目 属 性 矩阵 计 
类 型 的 偏好 因素 。 用 户 的 偏好 ， 提 高 了 预测 的 准确 度 。 
为 此 ，Shi 等 人 馈 提 出 一 种 基于 新 型 概率 主题 模型 ， 在 相 些 研究 一 定 程度 上 考虑 了 项 目 偏差 或 用 户 偏好 因素 对 预 
度 计 算 时 引入 两 个 项 目 之 间 相 异 性 的 惩罚 项 ， 减 少 不 相关 的 项 测 的 影响 ， 取 到 了 较 好 的 成 效 ， 基 于 此 ， 提 出 一 种 融合 项 目 偏 
目 对 于 准确 度 的 影响 。Qiao 等 人 中 提出 一 种 结合 用 户 属 性 和 项 差 和 用 户 偏 好 的 推荐 算法 (item deviation and user preference 
内 容 的 推荐 算法 , 利用 LDA(atent Dirichlet allocation) 模 型 分 combination filtering, TUCF )， 通 过 对 项 目 和 用 户 分 别 进 行 聚 类 
别 对 用 户 属性 和 项 目 内 容 进 行 主题 分 析 ， 挖 掘 出 用 户 对 项 目 各 处 理 ， 利 用 最 近邻 协同 过 滤 和 概率 转移 挖掘 项 目 偏差 和 用 户 偏 
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好 ， 并 将 两 者 融入 用 户 对 项 目的 预测 评分 中 完成 推荐 。 
1 ”相关 研究 
1.1 基于 用 户 的 协同 过 滤 算 法 


Chinax vy 合作 期 刊 ， 


程 磊 ， 等 : 融合 项 目 偏差 与 用 户 偏好 的 推荐 


好 ， 但 矩阵 分 解 算法 可 解释 差 。 文 
的 项 目 评分 的 均值 表示 类 型 的 评分 


为 此 , 在 IUCF 算法 中 ,充分 考虑 项 目 和 用 户 的 内 在 属性 ， 


献 [12] 简 单 使 用 包括 某 类 型 
,导致 用 户 偏好 区 分 度 不 高 。 


通过 对 项 目 类 型 和 用 户 属性 进行 聚 类 ， 使 得 项 目 偏差 更 加 准确 


基于 用 户 的 协同 过 滤 算法 分 为 以 下 几 步 : ) 根 据 用 户 -项 目 
评分 矩阵 计算 用 户 之 间 的 相似 度 ; b) 根 据 相似 度 选取 近邻 用 户 ; 


c) 根 据 近邻 用 户 给 出 预测 分 数 。 相 似 度 的 计算 采用 皮尔 逊 相关 
系数 外; 


2 (0 ha) 用 ) 
nelip 


(no -1)? 之 (Tn -nb)? 


nelip nel, 


Sim(a,b) = 


(1) 
其 中 : 1 表示 用 户 4 与 用 户 b 共 同 评分 过 的 项 目 集合 , 1 入 
分 别 表示 用 户 a 和 用 户 b5 对 项 目的 实际 评分 ， 元 和 韦 分 别 表 
示 用 户 a 和 用 户 b 所 有 评分 的 平均 值 。 
1.2 ”LDA 主题 模型 
LDA 主题 模型 外 首先 使 用 Dirichlet 概率 分 布 来 设置 文档 的 
潜在 概率 , 然后 使 用 抽样 算法 来 估计 文档 -主题 概率 分 布 和 主题 
-词汇 概率 分 布 。 抽 样 算法 采取 Gibbs 采样 001: 


(Wh) 
7 + Ok 7 ,+p 


mi 


pz; = | Zi W) oc K (Ww V (1) 
之 (Com 二 Ci) Ss 二 万) 
=1 1= 


(2) 


其 中 : p(zi =k|zj, 雄 表示 排除 第 i 个 词汇 ， 根 据 文档 集 w 中 其 
它 词汇 序列 的 主题 分 布 来 计算 第 i 个 词汇 属于 第 k 个 主题 的 概 


率 ， 其 中 表示 语料库 z 中 的 第 i 个 词汇 对 应 的 主题 ，m0,; 表 


示 排 除 第 i 个 词汇 ， 第 m 篇 文档 中 主题 的 词汇 次 数 ，7me， 表 


示 排 除 第 i 个 词汇 ， 第 k 个 主题 中 词汇 t 的 次 数 ;，Q 和 pb 分 别 
表示 文档 -主题 分 布 和 主题 -词汇 分 布 的 Dirichlet 先 验 参数 。 

1.3 问题 描述 与 分 析 
在 进行 评分 预测 过 程 中 ， 由 于 受 项 目 间 关 联 因素 的 相互 影 
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2 ”融合 项 目 偏差 与 用 户 偏好 


可 靠 。 通 过 统计 项 目 类 型 被 标记 次 数 的 比例 ， 再 结合 用 户 评分 
和 矩阵， 使 得 出 现 频率 高 的 类 型 获得 较 高 的 打分 ， 从 而 使 得 到 的 


的 推荐 算法 


IUCF 算法 中 融入 两 部 分 内 容 : 基于 项 目 艇 和 用 户 簇 生成 


项 目 偏差 分 和 基于 项 目 类 型 生成 用 户 偏 好 分 ， 并 以 目标 用 户 所 


预测 评分 ， 算 法 模型 如 图 1 所 示 。 


在 项 目 簇 的 已 有 评分 均值 为 基础 ， 对 两 部 分 线性 加 权 生 成 最 终 


项 目 评分 项 目 类 型 | 户 属性 ”| 输入 层 
0 
生成 用 户 簇 生成 项 目 簇 
小 | 处 理 层 
(EE 
OC 
最 终 预测 分 输出 层 


图 1 IUCF 算法 模型 


2.1 聚 类 处 理 


为 准确 地 体现 项 目 偏差 ， 需 要 在 项 目 偏差 中 同时 考虑 项 


类 型 和 用 户 属性 ， 同 时 为 准确 地 挖掘 用 户 偏好 ， 在 计算 用 户 偏 
好 时 考虑 用 户 对 不 同 项 目 类 型 的 喜好 程度 。 为 此 ， 通 过 对 项 


类 型 和 用 户 属性 的 聚 类 ， 生 成 项 目 簇 和 用 户 艇 ， 计 算 项 目 偏差 


和 用 户 偏好 ， 从 而 提高 推荐 的 准确 度 。 


2.1.1 LDA 主题 建 模 生成 项 目 纺 


LDA 主题 建 模 是 一 种 文档 主题 生成 模型 , 能 够 识别 语料库 


中 潜在 的 主题 信息 。 在 模型 中 ， 每 


篇 文档 看 作 是 由 许多 主题 


所 构成 ， 而 每 一 个 主题 又 由 许多 词汇 所 构成 。 将 所 有 的 项 目 类 


响 , 实际 存在 项 目 偏差 问题 , 例如 动作 题材 电影 的 评分 计算 时 ， 
除 同一 题材 电影 的 评分 外 ,许多 无 关 题材 的 评分 也 参与 了 计算 ， 
导致 预测 评分 偏离 了 实际 ; 同样， 在 近邻 选取 时 ， 往 往 是 在 整 
个 用 户 集 里 找寻 ， 并 未 充分 考虑 用 户 的 内 在 属性 ， 无 法 准确 体 
见 不 同 用 户 对 不 同类 型 项 目 所 存在 的 一 些 偏好 ， 例 如 : 不 同年 


型 作为 文档 , 将 类 型 作为 词汇 , 找寻 每 个 词汇 所 在 的 主题 。 设 7 


为 项 集合 ， T={1,7,…,1,} ， 大 中 ， I 表示 第 nn 个 项 o 定 


义 项 目 类 型 =(,5…,i) ， 其 中 
类 型 ， 例 如 ， 当 1= (Action, Dram 
类 型 为 Action、Drama 和 War。 


? in 表示 项 已 的 第 m 个 
a, War) 时 ， 表 示 项 目 1 的 


将 项 目 集 合 进 行 LDA 主题 建 模 ， 使 用 Gibss 采样 法 ， 得 到 


龄 段 人 群 间 爱 好 存在 一 定 的 差异 ， 表 面 上 打分 相近 用 户 ， 实 际 


上 可 能 有 较 大 差距 。 同 时 ， 用 户 的 偏好 也 影响 用 户 对 项 目的 评 
分 ， 例 如 : 当 电 影 同 时 存在 用 户 喜欢 的 动作 题材 和 不 喜欢 的 恐 
怖 题材 ， 用 户 对 电影 的 打分 就 会 受到 其 个 人 偏好 的 影响 。 需 要 
准确 挖掘 项 目 偏差 和 用 户 偏好 ， 以 对 最 终 预 测评 分 进行 纠偏 。 
针对 项 目 仿 差 挖 掘 ， 文 献 [6] 分 别 从 用 户 和 项 目的 角度 对 项 
目 偏 差 进行 过 滤 ， 最 后 再 进行 混合 加 权 ， 但 是 这 种 方式 计算 量 
比较 大 。 文 献 [11] 使 用 用 户 间 信任 度 与 相似 度 的 线性 加 权 作为 
最 近邻 的 选取 依据 ,但 其 在 计算 时 依然 未 考虑 项 目的 内 在 属性 。 
针对 用 户 偏 好 挖掘 ,文献 [7] 通 过 矩阵 分 解 算法 挖掘 出 用 户 的 偏 
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项 -类 型 主题 分 布 之 和 主 题 -类 型 概率 矩阵 Drm 2 其 中 主题 数 


在 2 中, 每 个 项 目 1 的 类 型 志 
L, =(i: Zi :2 bn :21) ? 其 中 ， 


需要 根据 LDA 聚 类 后 算法 的 准确 度 确定 。 


都 有 一 个 主题 标号 ,形式 如 
六: 和 表示 六 对 应 的 主题 标 


号 为 ， 例 如 ， Action:3 表示 类 型 Action 属于 主题 3。 


根据 Z 建立 项 目 -主题 隶属 矩阵 1, 当 项 目的 类 型 i 属于 


主题 1 时 ， b=1, 否则 ， =0， 如 


式 (3) 所 示 。 
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Lixt =|: : (3) 


项 目 一 主题 隶属 矩阵 的 任意 一 行 可 以 得 到 项 目 3 


题 艇 ， 


项 目 一 主题 隶属 矩阵 的 任意 一 列 ， 可 以 得 到 主题 


2.2 计算 项 目 偏差 分 
被 打分 时 的 偏离 项 目 均值 的 程度 来 衡量 项 
电表 达 项 目 偏 差分 ， 主 簇 和 用 户 簇 


行 过 滤 ， 计 算 每 个 项 目 与 其 所 在 项 目 艇 已 有 评 


采用 目标 项 
偏差 ， 为 了 准 而 
对 项 目 和 用 户 i 


户 进 


号 通过 项 


这 


记 为 CN，; 分 的 均值 的 差 值 。 其 计算 过 程 如 下 : 
项 目 复 ， 记 为 CT 。 如 式 (4) (5) 所 示 。 a) 在 项 目 复 内 计算 增强 的 评分 相似 度 。 
本 在 项 目 簇 CG, 内 ， 根 据 用 户 -项 目 评分 矩阵 计算 用 户 之 间 的 
CN, ={i|i; =b,iell,d]} (4) 有 me 
增强 评分 相似 度 Sim(a,b) ， 如 式 (8) 所 示 。 
cT ={j| jell) (5) ry (mn -7 ) a 
其 中 ，CN, 表示 项 目 n 所 属 的 主题 集合 ，CT, 表示 主题 ! 包含 人 
其 中 ， 直 和 弄 分 别 表示 太 , 和 志 , 各自 项 目 对 应 的 C, 中 的 已 有 
对 于 目标 项 目 n ， 先 找到 其 对 应 的 CN, ， 然 后 找到 每 个 主 
题 所 对 应 的 CT, ， 最 后 将 所 有 的 CT 进行 并 集运 算得 到 目标 项 评分 的 均值 。 
目 所 在 的 项 目 簇 G,， 如 式 (6)〉 所 示 。 b) 在 用 户 复 内 求 出 目标 用 户 的 最 近邻 。 
Bs UW Cr 时 生成 目标 用 户 与 其 他 用 户 的 增强 相似 度 ， 在 用 户 簇 U 内 ， 
‘em, 选取 与 目标 用 户 a 相关 系数 最 高 的 前 k 个 用 户 组 成 目标 用 户 的 
2.1.2 K-means 聚 类 生成 用 户 禾 和 加 
在 当前 的 网 络 环境 下 ， 可 以 准确 获取 用 户 属性 ， 用 户 属性 入)k， 各 于 69) 放下 。 
A A 0) 
Q={Q,Q,…,Q:} ， 用 户 属性 为 8 = (41,92.…4x) ， 其 中 ，Q; 表 
示 第 i 个 用 户 ，qx 表示 用 户 i 的 第 个 基本 属性 , 例如 ， 当 Q;= 其 中 : bj 为 与 用 户 a 相关 系数 从 高 到 低 的 第 j 个 用 户 ， 
( 男 ，23，teacher) 时 ， 表 示 用 户 Q; 的 性 别 为 男 ， 年 龄 为 23， Desoto Sb ev) 为 在 用 户 簇 U 内 与 用 户 a 的 相似 度 
职业 为 teacher。 
为 了 进行 K-means 聚 类 ， 需 要 对 用 户 的 基本 信息 进行 预 处 高 到 低 的 排序 序列 。 
理 ， 采 用 数字 编码 [1-9] 的 方式 对 用 户 的 基本 信息 进行 预 处 理 。 c) 采用 加 权 平 均 偏 差生 成 项 目 偏差 分 。 
针对 性 别 , 将 男女 分 别 编码 为 1 和 2; 针对 年 龄 ,根据 文献 [13] 在 得 到 目标 用 户 的 最 近邻 后 ， 采 用 加 权 平 均 偏 差 作为 用 户 
所 提出 的 5 组 划分 方式 , 将 用 户 年 龄 划分 为 少儿 组 (0~19 岁 )， 簇 内 用 户 a 对 目标 项 目的 项 目 偏差 分 ， 如 式 (10): 
青年 组 (20~39 岁 )， 壮 年 组 (40~59 岁 )， 实 年 组 (60~79 岁 ) 5 Sim(ab)(r -Fr) 
和 老年 组 〔>80 岁 )， 并 依次 编码 为 1,2,3,4,5。 针 对 职业 ， 文 RN 人 (10) 
献 [14] 将 二 八 定 理 用 于 信息 评估 ， 定 理 指 出 : 任何 一 组 东西 ， beN(a)k 
最 重要 的 东西 只 占 大 约 20%， 其 余 的 只 占 80%。 同 理 ， 统 计 所 其 中 : IDw 为 用 户 簇 内 用 户 a 对 目标 项 目的 项 目 偏 差分 。 
有 用 户 的 职业 种 类 及 每 种 职业 的 用 户 数 量 ， 根 据 每 种 职业 的 用 2.3 计算 用 户 偏好 分 
户 数量 对 职业 进行 降序 排名 ， 对 排 在 前 20% 的 职业 给 予 单独 编 项 目 偏 差分 是 基于 相似 度 生 成 的 ， 但 由 于 其 受 限 于 共同 评 
码 ， 剩 余 的 职业 归 为 一 类 。 例 如 ， 统 计 MovieLens 中 用 户 的 职 分 项 ， 当 共同 评分 项 很 少 甚 至 不 存在 时 ， 项 目 偏 差分 就 失去 了 
业 情 况 , 根据 统计 , 一 共 21 个 职业 ， 取 用 户 数量 前 4 的 职业 进 调节 意义 ， 因 此 ， 考 虑 计算 用 户 偏 好 分 ， 它 反映 了 用 户 对 不 同 
行 单 独 编码 ， 剩 余 的 职业 归 为 一 类 ， 所 以 用 户 的 职业 编码 依次 项 目的 偏好 程度 。 算 法 先 从 项 目 类 型 偏好 分 出 发 ， 挖 掘 用 户 的 
为 1,2,3,4,5。 经 过 数字 编码 后 ， 用 户 属性 表示 为 数字 编码 ， 例 类 型 喜好 ， 再 计算 主题 偏好 分 ， 最 后 计算 用 户 偏好 分 。 其 计算 
如 ，Q;=( 男 ，23，teacher) 表示 为 @ = (1,1,5)。 过 程 如 下 


来 确定 
线 的 拐 
用 户 簇 


其 中 : 


于 K-means 聚 类 是 一 种 无 监督 学 习 方法 ， 有 具体 的 聚 类 个 


根据 所 有 类 艇 的 误差 平方 和 (sum of squares errors, SSE) 


a) 由 用 户 类 型 偏好 分 生成 用 户 类 型 喜好 。 
用 户 类 型 喜好 是 基于 用 户 类 型 偏好 分 的 ， 用 户 类 型 偏好 分 


, 采用 肘 方法 I51, 该 方法 选择 簇 内 误差 平方 和 关于 簇 数 F 
点 作为 聚 类 数 。 经 过 K-means 聚 类 后 得 到 用 户 a 所 在 的 
U。， 如 式 (7) 所 示 。 

U, ={uj;|u; eQ,j ell,i]} (7) 


uj 表示 用 户 艇 中 的 第 了 个 用 户 ，@ 表示 用 广 


表示 不 同类 型 在 用 户 评分 总 和 中 所 占 的 分 值 ， 即 不 同类 型 对 总 
分 所 起 的 贡献 比例 ， 如 式 〈11) 所 示 。 


(11) 
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其 中 : Pu 表示 用 户 4 对 类 型 i 偏好 分 ，s6i 表示 用 
的 评论 次 数 ，raj 表示 用 户 a 对 项 目 j 的 评分 ，m 表示 类 型 数 ， 
n 表示 项 目 数 。 Sai 是 用 户 -类 型 评 次 矩阵 Sen 的 每 一 项 ， Soon 


户 4 对 类 型 i 


目 隶 属 矩 阵 尺 ,,， 和 项 目 -类 型 隶属 矩阵 2 的 对 


应 项 相 乘 得 到 。 在 R,, 中 , 当 用 户 4 存在 对 1 的 评分 时 , 1% =1， 


否则 六 =0。 同 理 


中 ， 当 ,中 存在 属于 类 型 m 的 类 


型 时 ， 名 ,=1， 否 则 各, =0。 如 式 〈12); 


Saxm = Raxn (12) 
用 户 的 类 型 喜好 存在 喜欢 和 不 喜欢 ,z-score 标准 化 反映 了 
数值 与 均值 的 差异 程度 ， 其 结果 的 正 负 刚好 用 来 反映 用 户 对 不 
同类 型 的 喜好 ， 因 此 对 用 户 的 类 型 偏好 分 进行 z-score 归 一 化 ， 


如 式 (13) 所 示 。 


x 


nxm 


pn = Pai— MHa 


Oa 


(13) 


其 中 : 
差 。 
b) 依 次 计 


先 计 算 用 


Pa 表示 用 户 4 对 类 型 i 
偏好 分 的 均值 ， cv 表示 用 


的 喜好 ， 4 表示 用 户 4 的 所 有 
户 4 的 所 有 类 型 偏好 分 的 标准 


Ve 


TR 


昌 页 


和 主题 偏好 分 和 用 户 偏好 分 。 
户 对 主题 的 偏好 分 ， 主 题 偏 好 分 反映 了 用 户 对 于 


一 、 


主题 的 偏好 程度 ， 它 是 用 户 -类 型 喜好 矩阵 户 ,,, 和 类 型 -主题 概 


率 和 矩阵 Dux 对 应 项 相 乘 得 到 ， 计 算 形 式 同 式 〈12)， 其 中 已 


Pai 组 成 ， Dxs 是 Diw 的 转 置 矩 阵 ， 再 将 同一 项 目 主题 复 
CN 中 的 用 户主 题 偏 好 分 累加 ; 最 后 采用 平均 法 生成 用 户 4 对 
项 目的 偏好 分 UEw 。 如 式 〈14) 所 示 。 

> (Fd;) 
UP /ECN, i=l (14) 
an N 


n 


户 集合 O ， 权 重 系 


到 项 目 偏差 分 的 调节 ， 有 具体 的 4 值 需要 根据 实验 给 出 。 
2.5 |IUCF 的 算法 描述 
算法 ”融合 项 目 类 型 与 用 户 属 性 的 推荐 算法 (IUCF) 
输入 ;用 户 -项 目 评分 矩阵 Rn ， 项 目 集合 了 ， 
数 1 。 
输出 :目标 项 目的 预测 评分 Tw 。 


a) 先 对 了 进行 LDA 主题 建 模 得 到 项 目 -类 型 


率 和 矩阵 已 xw， 再 根 


由 


据 之 建立 项 


主题 篇 CN,， 和 主题 项 目 复 CI ， 最 后 


b) 先 对 @ 中 的 每 个 
Q 进行 k-means 聚 类 ， 最 后 生成 
皮尔 逊 相关 系数 计算 用 户 
高 到 低 生 成 目标 


c) 先 在 C 内 根 


度 Sim(a,b) ， 再 在 U 内 根据 Sim(a,b) 


NN(a) ， 最 后 采取 


户 Q; 的 基本 信息 进 


CN,, 和 CT 生成 项 


E 题 分 布 和 主题 -类 型 概 


-主题 隶属 矩阵 ,随后 由 ,生成 项 


簇 Cn 0 


户 簇 Ua 。 


据 尺 使 


d) 先 对 


户 -项 


相 乘 得 到 


户 -类 型 评 次 矩阵 Sun ， 


类 型 偏好 分 Pu ， 


最 后 对 Pu 进行 z-score 标准 化 得 到 


权 平均 偏差 法 4 


隶属 矩阵 尺 和 项 


axn 


再 由 SS,»,。 和 R 


axm axn 


行 数字 编码 ， 


成 项 目 偏差 分 ID。 


-类 型 隶属 矩阵 7 


再 对 编码 后 的 


间 的 增强 评分 相似 


户 的 最 近邻 


mt 


进行 矩阵 


nxm 


的 对 应 项 生成 用 户 


户 类 型 喜好 Pa 


e) 先 由 Pai 建立 


概率 矩阵 Dxt ，] 


根据 户 、 和 Dws 对 应 项 相 乘 4 


UP 


an® 


再 累加 同一 CN 中 


Aaxm 


户 -类 型 喜好 算 阵 户 


axm 


E 成 


,将 Dixn 转 置 生成 类 型- 主题 


户主 题 偏好 分 ， 


的 用 户主 题 偏 好 分 ， 最 后 采用 平均 法 生成 


昌 户 偏好 分 


人 ) 以 目标 用 户 所 属 G, 的 已 有 评分 的 均值 元 " 为 基础 ， 通 过 权重 系数 4 


对 ID,, 和 UP, 进行 调节 ， 
IUCF 的 时 间 复 杂 度 分 析 
类 型 数 为 m ， 主 题 数 为 1 ，Gibbs 迭代 
户 的 基本 信息 数 为 9 ，k-means 聚 
类 个 数 为 9 ， k-means 迭代 次 数 d ， 最 近邻 个 数 为 上 。 在 用 


2.6 


设 项 目 数 为 
次 数 为 8 ， 用 户 


其 中 :di 表示 Dx 中 类 型 m 对 应 的 主题 1 的 概率 ，N, 表示 项 
目 n 所 属 CN, 中 的 主题 个 数 。 

2.4 生成 最 终 预测 评分 

目标 项 目的 预测 评分 是 以 目标 项 目 所 在 的 项 目 簇 的 已 有 评 
分 的 均值 为 基础 ， 添 加 项 目 偏差 分 和 用 户 偏好 分 而 生成 的 。 通 


n ,项 


数 为 4 ， 


和 项 


度 为 O(g8nmt) ， 步 又 b): k-means 
度 为 O(daqs) ， 步 又 c): 在 项 目 簇 内 计算 增强 的 评分 相似 度 的 
时 间 杂 度 为 O(a?n) ,步骤 dd): 1 


过 权重 系数 4 对 两 种 预测 分 进行 调节 ， 从 而 得 到 用 户 4 对 项 
n 的 最 终 预 测评 分 Tom ， 如 式 〈15) 所 示 。 


T=7 +AD,, +d-4)UP， 


其 中 : 元 表示 用 户 4 所 预测 项 目的 项 目 簇 G 中 的 已 有 评分 


的 均值 。 最 终 的 预测 评分 受到 权重 系数 4 的 影响 ， 当 4=0 时 ， 
预测 评分 只 受到 用 户 偏 好 分 的 调节 ， 当 4=1 时 ,预测 评分 只 受 


喜好 的 时 间 复 杂 


在 线 部 分 : 步骤 c): 在 用 


Se 


采用 加 权 平 均 
O(alog, a + ka), 


间 复 杂 度 为 O(amt) ， 步 又 e): 4 


CU) 。 


综 上 , 离线 部 分 


度 为 O(anm) 


最 终 和 4 


成 10 


聚 类 生成 用 


户 数 


数 保持 一 定 的 情况 下 ， 算 法 分 为 离线 部 分 和 在 线 部 分 。 
离线 部 分 : 步骤 a): LDA 主题 到 


E 模 生成 项 目 簇 的 时 间 复 杂 


户 类 型 偏好 分 生成 


户 艇 的 时 间 复 杂 


户 类 型 


o 


偏差 生成 


户 艇 内 求 出 目标 
项 目 偏 差分 的 日 


步骤 d): | 


主题 偏好 分 生成 


包含 ac 和 bd 


] 户 的 最 近邻 和 


时 间 复 杂 度 为 


户 偏好 分 的 时 


个 独立 的 分 支 , 而 LDA 主 


E 成 最 终 评分 的 时 间 复 杂 度 为 


题 建 模 的 时 间 复 杂 度 远大 于 k-means， 所 以 时 间 复 杂 度 为 
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O(gnmt+an)， 在 线 部 分 时 间 复 杂 度 为 O(alog, a +amt) 。 


”ChinaXiv 合 作 期 
程 和 硕 ， 等 : 融合 项 目 偏差 与 用 9 推 


13、14、15、16、17、18 进行 实验 ， 同 时 根据 文献 [16] 的 实践 


进行 参数 设置 ，w =50/T，B=0.01， 如 图 3 所 示 。 


3 ”实验 结果 与 分 析 
3.1 实验 数据 集 和 实验 环境 
实验 数据 集 采 用 美国 明尼苏达 大 学 的 GroupLens 小 组 开发 


并 维护 的 MovieLens 100K 数据 集 ， 包 含 943 个 用 户 对 1682 部 
电影 的 10 万 多 条 评分 , 以 及 电影 类 型 和 用 户 属性 等 内 容 。 将 数 
据 集 的 80% 作 为 训练 集 ， 剩 余 的 20% 作 为 测试 集 ， 采 用 五 折 交 
叉 验 证 的 方式 进行 实验 。 
实验 环境 为 Intel Core i5 处 理 器 和 8G 内 存 , Windows7 x64 
操作 系统 ， 算 法 使 用 
3.2 ”实验 度量 标准 


Python3.5 语言 实现 。 


12 13 14 15 16 17 18 
Theme Number 


图 3 不 同 主题 数 下 的 MAE 值 变 化 
图 3 中 , 在 近邻 数目 为 10、30、50 的 时 候 ， 当 主题 数目 为 


准确 性 采用 平均 绝对 误差 (Mean Absolute Error, MAE) 作 
为 度量 标准 ， 它 可 以 直观 反映 推荐 质量 的 高 低 ，MAE 越 小 , 证 
明 推 荐 准确 度 越 好 ， 如 式 〈16) 所 示 。 
i 加 
NI 
其 中 : T6 表示 用 户 a 对 项 目的 预测 评分 ，7i 表示 用 户 4 对 


项 目的 实际 评分 ，N 表示 预测 的 项 目 数 。 
3.3 ”算法 相关 参数 确定 实验 
算法 中 需要 确定 的 参数 包括 K-means 聚 类 个 数 `LDA 聚 类 
主题 数目 和 权重 系数 1 。 
3.3.1 K-means 聚 类 个 数 的 确定 
为 了 确定 合适 的 k-means 聚 类 数 ， 采 用 肘 部 方法 ， 依 次 选 
取 聚 类 的 个 数 为 2、3、4、5、6、7、8， 分 别 计 算 SSE， 结 
如 图 2 所 示 。 


900 


800 上 


700 上 


600 上 


SSE 


S00 上 


400 上 


300 上 


200 - 


Cluster Number 
图 2 不 同 聚 类 个 数 下 的 MAE 值 变 化 
随 着 聚 类 数目 的 增加 ，SSE 的 值 依 次 下 降 。 从 图 


图 2 中 ， 


中 可 以 看 出 , 当 聚 类 个 数 从 2 到 3 时 ,SSE 的 值 下 降 了 大 约 300， 
而 聚 类 个 数 从 3 开始 , SSE 的 值 下 降 速度 明显 小 于 300, 同时 3 
所 对 应 的 点 也 刚好 为 肘 方法 的 拐点 , 因此 ， 当 聚 类 个 数 为 3 时 ， 
聚 类 效果 最 好 。 
3.3.2 LDA 聚 类 主题 数目 的 确定 

为 了 确定 合适 的 LDA 聚 类 的 主题 数目 ， 设 置 4=1， 即 仅 
通过 项 目 偏差 分 的 算法 去 确定 最 佳 主题 数目 ， 固 定 近邻 数目 为 
10、30、50， 采 用 Gibbs 抽样 方法 ， 依 次 选取 主题 数目 为 12、 


15 时 ， 算 法 MAE 最 小 ， 表 明 不 管 在 何 种 近邻 数目 下 ， 设 置 主 
题 数目 为 15， 更 加 有 利于 保证 算法 的 推荐 效果 。 因 此 ， 在 算法 
中 主题 数目 的 最 佳 值 为 15。 


3.3.3 权重 系数 4 的 确定 

为 了 确定 最 佳 的 权重 系数 4 , 分 别 设置 近 邻 数目 为 10、30 
和 50， 通 过 调节 权重 系数 4 ， 计 算 IUCEF 算法 在 不 同 4 值 下 的 
MAE， 如 图 4 所 示 。 


0 0.2 0.4 0.6 0.8 1 
Weight Coefficient 


图 4 不 同 权重 系数 下 的 MAE 值 变 化 

从 图 4 可 以 看 出 ， 对 于 近邻 数目 为 10、30、50， 当 4 =0.6 
时 ，IUCEF 算法 的 MAE 最 小 ， 算 法 的 推荐 质量 最 佳 。 因 此 ， 实 
验 中 权重 系数 4 值 取 为 0.6。 
3.4 算法 对 比 实 验 

为 了 充分 比较 UCF 算法 与 其 它 算法 在 推荐 准确 度 上 的 差 
别 ， 分 别 选择 4 种 算法 作为 对 比 算法 进行 实验 ， 包 括 传统 的 于 
用 户 的 协同 过 滤 算 法 〈UCF) 和 基于 项 目的 协同 过 滤 推 荐 算法 
(CICF), 文献 [4] 所 提出 的 基于 特征 转移 和 概率 矩阵 分 解 的 推荐 
算法 (FTMF)， 文 献 [11] 所 提出 的 采用 信任 网 络 增强 的 协同 过 
滤 算 法 (ECFATN )， 实 验 结果 如 图 5 所 示 。 
图 5 中 , 相 较 于 传统 的 UCF 和 ICF, IUCF 在 MAE 
下 降 ， 表 明 本 文 算法 确实 提高 了 传统 协同 过 滤 算 法 的 准确 度 。 
对 比 ECFATN， 在 不 同 近 邻 数 目下 本 文 算法 MAE 更 低 ， 表 明 
本 文 算法 更 优 ， 但 是 对 比 FTMF， 当 近邻 数目 增加 到 30 以 后 ， 
IUCF 的 MAE 要 高 于 FTMF， 这 可 能 是 由 于 项 目 偏差 分 中 过 多 
的 近邻 数目 反而 降低 了 算法 的 准确 度 , 但 是 在 近邻 数目 少 于 30 
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时 ，IUCE 的 MAE 要 低 于 FTMF， 表 明 本 文 算法 在 近邻 数目 较 
低 时 ， 提 高 了 算法 的 准确 度 。 


a T T 


米 一 米 -_UCF 
0.95 [~ ~» CF 
*、 a — ©-- ECFATN 
0.9 上 一 -FTIMF 
2 米 、 一 去 一 TUCF 
0.85 + 
3 
0.8 
三 
0.75 
0.7 
0.65 
0.6 4 
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Neighbour Number 


图 5 不 同 算法 下 的 MAE 值 变化 

为 了 验证 IUCF 算法 与 其 他 算法 在 时 间 效 率 上 的 差别 ， 分 
别 选择 UCF 和 ICF 进行 对 比 实验 ， 分 别 对 20、40、60 名 用 户 
产生 推荐 ， 不 同 算法 的 运行 时 间 对 比如 表 1 所 示 。 


表 1 算法 运行 时 间 对 比 表 /s 
户 数 UCF ICF IUCF 
20 3.79 4.15 4.03 
40 6.12 7.82 6.92 
60 10.87 12.54 11.32 


从 表 1 中 可 以 看 出 ，IUCF 算法 在 时 间 效 率 上 要 明显 优 于 
传统 的 基于 项 目的 协同 过 滤 推 荐 算法 ， 但 是 与 基于 用 户 的 协同 
过 滤 推 荐 算法 相 比 ，IUCF 算法 的 运行 时 间 较 长 ， 这 是 因为 基 
于 项 目的 协同 过 滤 相似 度 的 计算 要 在 线 完 成 ， 而 基于 用 户 的 协 
同 过 滤 的 相似 度 计 算 可 以 离线 完成 。 

综 上 ，IUCF 算法 在 推荐 准确 度 和 时 间 效 率 上 得 到 了 一 定 
的 改善 。 
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准确 衡量 项 目 偏差 与 用 户 偏好 对 于 推荐 质量 有 较 大 影响 ， 
通过 限定 计算 范围 ， 排 除 不 相关 的 项 目 和 用 户 ， 有 效 地 缓解 协 
同 过 滤 推 荐 中 项 目 和 用 户 间 关 联 因素 的 相互 影响 导致 的 准确 度 
不 高 的 问题 ， 取 得 了 较 好 的 效果 。 
一 步 可 以 采用 自然 语言 处 理 技术 ， 从 用 户 的 评论 中 提取 
情感 词 ， 进 而 挖掘 项 目 偏差 与 用 户 偏好 ， 进 一 步 提高 推荐 系统 
的 准确 度 ， 同 时 使 推荐 结果 更 具有 说 服 力 。 
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